查看原文
其他

分享我的分布式爬虫架构设计(附二胖视频讲解)

二胖并不胖 大数据前沿 2019-02-23


昨天在收拾电脑资料的时候找到一个ppt,是我之前在公司做技术分享时用的ppt。


我本身并不是做爬虫的,但是由于爱好,就在工作之余给同事们做了一个分享。其实这个ppt的内容还是比较有含金量的,不过今天我们就只讲其中的一部分,即爬虫架构,如下图所示:



上图可能比较小,推荐你点开看一看大图。


1


我本试图用文字阐述一个爬虫的架构,不过确实很难讲解清楚,所以我还是选择录个视频。


视频中提到的所有项目,都是我之前在公众号发布过的,并且部分项目我还公布了代码,所以大家在看过视频之后如果想继续了解这些项目,可以点入后文的链接进行深入了解。


好的,现在我们先来看视频,不过,在公众号看视频的缺点就是不清晰,所以我把视频上传到了腾讯视频,链接也留在下面,大家如果真的感兴趣,可以点击下面的链接观看。


链接:https://v.qq.com/x/page/a0786m3ukpg.html


2


可能看了视频以后很多同学也是一脸懵逼。确实,分享一门技术上来就直接分享架构确实是件很丧心病狂的事情。


不过实在没办法照顾到所有的人,如果有机会,我希望我们能从头讲起,慢慢去实现一个又一个的项目,当然这可能要花很多的时间。


我认为有一个清晰的架构,一个项目才能被维护下去。所以,现在即使看不懂也没关系,学习是一个循序渐进的过程,坚持下去一定会有收获


3


我在视频中提到的很多内容都是我之前在公众号中分享过的,所以我给大家再列举一下相关的文章,希望对大家有帮助。


在下面列举的文章前,我会选取一两张文章中的图片来介绍这篇文章。


下面的蓝色字体都可以直接点击查看相关文章。


1.链家爬虫


成都,我们还回得去么?


这个标题看上去像是一个鸡汤文,但是不是的,而是一篇数据分析相关的文章,文章中的两个动态图见证了成都的发展和成都房价的暴涨:



2.微博爬虫


微博爬虫我一共写了3篇,其中有一篇还公布了代码,它们分别是:


大数据告诉你旅行青蛙饲养员的秘密

从数据角度挖一挖创造101是怎么火起来的

分享一段代码-用Java抓取冯小刚的微博


其中前两篇是数据分析,最后一篇是代码分享。


在创造101最火的那段时间,我分析了一下相关的内容。有粉丝的情绪变化:



也有关键词的提取:



3.知乎爬虫


我在知乎上发布的所有文章中,就这篇文章的粉丝互动性最高:


用python挖一挖知乎上宅男们最喜欢的1000个妹子


可能“妹子”才能吸引大家吧。

除了在这篇文章中放出妹子们的照片外,我同样分享了抓取的技术架构和流程,喜欢妹子和架构的同学可以看一看:



除了妹子外,关于知乎,我还做了这些分析:


非211、985学生真的进不了BAT吗?

名校出身的毕业生们,你们都从事了什么行业?


还有很多我就不一一举例了。


4.微信爬虫


开源一段代码-微信好友分析


用这篇文章中分享的代码,你可以对你的微信好友进行一系列的分析,比如好友的:性别分布、地域分布、头像等信息

这篇文章中的代码我也上传到了github,目前已经有800左右的star了,感兴趣的同学可以看看:


5.美团爬虫


说到吃,我想大部分人都是感兴趣的,而恰好我写了和美团餐厅相关的数据分析文章,大家不妨参考一下,文章中也有相应的技术分析:


对60万家餐厅统计制作的美食地图,全国人民都爱吃金针菇

四川人,你们为啥子那么爱吃兔子


关于金针菇和全国人民的关系,你们可以去文章中看看:



 6.其他


当然,爬虫相关的文章还有很多,我就不一一举例了,留几个链接吧:

噢,对了,这篇文章我想大部分人都感兴趣


用Python抓取某东购买记录并统计MM的bra大小(附代码)


其他的文章如下:

不会爬虫,怎样获取数据?

相亲市场上12星座的择偶观-女生篇

分析了中国高校2万名教授的名字,来看看哪个姓的人最聪明


最后

其实我昨天推的背单词的文章挺有意思的:

不用“背”单词,1个方法牢记7000单词:我是如何做到的?


因为偏执,所以坚持

长按识别二维码关注,大数据前沿,和三万年轻人一起成长。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存